Как видите, в политике страны, которую мы осматриваем, есть правило застрахованых
лиц, что некурящим людям дают первую степень затрат - самую маленькую, когда всем
курящим дают вторую и третью степень. То есть на них государство будет тратить
больше денег. Также сразу видно, что минимальный возраст опрошанных - 18 лет.
Предварительная обработка данных, кодирование
Как мы с вами ранее уже заметили, алгоритмы машинного обучения плохо работают не
с числовыми данными, поэтому слова НЕТ или ДА, как и другие любые слова, должны
быть преобразованы в числа.
Существует три различных метода для этого:
1. Кодирование Категориальных Признаков
2. Горячая Кодировка
3. Ловушка Фиктивных Переменных
Кодирование Категориальных Признаков относится к преобразованию словесных
меток в числовую форму, чтобы алгоритмы могли понять, как с ними работать.
Горячая Кодировка - каждое целочисленное значение представляется в виде
двоичного вектора, представляющего собой все нулевые значения, за исключением
индекса целого числа, который отмечен знаком 1. Приведем также пример. У нас дома
черепаха "Мотя", кошка "Муся", и собака "Мава". Так вот, у Моти тогда будут стоять
везде нули напротив слов собака и кошка, но напротив слова черепаха будет стоять 1, и
тд.
Ловушка Фиктивных Переменных - проще говоря, одна переменная может быть
предсказана на основе других.
Используя функцию pandas get_dummies, мы можем выполнить все
вышеперечисленные три шага в строке кода. Мы используем эту функцию, чтобы
получить фиктивную переменную для пола, детей, курильщика, особенностей региона.
Установив drop_first =True, функция удалит ловушку фиктивной переменной, отбросив
одну переменную и исходную переменную.Pandas облегчают жизнь, и это правда!